今天不長篇大論,要幫 AI 鍊金術師 - 「資料科學家」請命!
其實,還有「機器學習模型工程師」,但是在高監管行業快見不到他們的身影了,因為相關環境整備不足。
充分反應 AI 時代,資料的關鍵地位。
沒有好的資料,就沒有好的演算法程式碼。
圖片來源:https://www.bitstrapped.com/blog/mlops-lifecycle-explained-by-stages
很多高層覺得資料科學家,只需要一台筆電就能寫出演算法。
我們常見大型企業存在 System Integration Test (SIT )測試網段、Production (PRO)正式網段,User Acceptance Test(UAT) 常常作為測試階段來理解,為節省經費沒有配置 UAT 網段,甚至沒有專屬系統,直接在 SIT 網段上的 SIT 系統上進行 UAT 案例。
加上預算編列時,SIT 環境的系統常以最小規格為基準,因此 SIT 網段是無法裝下模型訓練需要的全量資料的!所以,資料科學家需要的實驗環境經常在正式環境與測試環境之間,被推來推去。
圖片來源:筆者自製
高監管行業的 PRO 網段,為了資訊安全與系統穩定性,規範上禁止開發與測試作業。
因此,讓資料科學家使用正式網段上的系統,進行模型訓練並不恰當。
AI 時代 LLM 靠資料長大
請所有大企業高層正視這個問題!不要再繼續搞 PRO 網段黑戶,或是在 SIT 網段擠沙丁魚!請如下圖,給予資料科學家與機器學習模型工程師一個合規完善的實驗環境,他們才能為企業好好煉金!
圖片來源:筆者自製